<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport"/>
  <title>
   数据挖掘 – 从数据中看规律 | 数螺 | NAUT IDEA
  </title>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap-theme.min.css" rel="stylesheet"/>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap.min.css" rel="stylesheet"/>
  <style type="text/css">
   #xmain img {
                  max-width: 100%;
                  display: block;
                  margin-top: 10px;
                  margin-bottom: 10px;
                }

                #xmain p {
                    line-height:150%;
                    font-size: 16px;
                    margin-top: 20px;
                }

                #xmain h2 {
                    font-size: 24px;
                }

                #xmain h3 {
                    font-size: 20px;
                }

                #xmain h4 {
                    font-size: 18px;
                }


                .header {
	           background-color: #0099ff;
	           color: #ffffff;
	           margin-bottom: 20px;
	        }

	        .header p {
                  margin: 0px;
                  padding: 10px 0;
                  display: inline-block;  
                  vertical-align: middle;
                  font-size: 16px;
               }

               .header a {
                 color: white;
               }

              .header img {
                 height: 25px;
              }
  </style>
  <script src="http://cdn.bootcss.com/jquery/3.0.0/jquery.min.js">
  </script>
  <script type="text/x-mathjax-config">
   MathJax.Hub.Config({tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']], processEscapes: true}});
  </script>
  <script src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML%2CSafe.js&amp;ver=15f5e1fcddf0b88517244c085cc07855" type="text/javascript">
  </script>
  <script src="http://nautstatic-10007657.file.myqcloud.com/static/css/readability.min.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   $(document).ready(function() {
                 var loc = document.location;
                 var uri = {
                  spec: "http://blog.cos.name/taoshi/category/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98/",
                  host: "http://blog.cos.name",
                  prePath: "http://blog.cos.name",
                  scheme: "http",
                  pathBase: "http://blog.cos.name/"
                 };
    
                 var documentClone = document.cloneNode(true);
                 var article = new Readability(uri, documentClone).parse();
     
                 document.getElementById("xmain").innerHTML = article.content;
                });
  </script>
  <!-- 1466462931: Accept with keywords: (title(0.666666666667):数据挖掘,数据,规律, topn(0.533333333333):大家,时代,统计学家,画外音,统计分析,信息,统计学,数据挖掘,男同学,数据分析,盒子,模型,金额,计算,文章,数据,群体,置信区间,抽样,预测,手气,问题,算法,随机,关心,红包,方法,发红包,数据量,技能).-->
 </head>
 <body class="archive category category-23 light-theme-pale-blue suffusion-custom preset-1000px device-desktop" onload="">
  <div class="header">
   <div class="container">
    <div class="row">
     <div class="col-xs-6 col-sm-6 text-left">
      <a href="/databee">
       <img src="http://nautidea-10007657.cos.myqcloud.com/logo_white.png"/>
      </a>
      <a href="/databee">
       <p>
        数螺
       </p>
      </a>
     </div>
     <div class="hidden-xs col-sm-6 text-right">
      <p>
       致力于数据科学的推广和知识传播
      </p>
     </div>
    </div>
   </div>
  </div>
  <div class="container text-center">
   <h1>
    数据挖掘 – 从数据中看规律
   </h1>
  </div>
  <div class="container" id="xmain">
   <nav class="tab fix" id="nav-top">
    <div class="col-control left">
     <ul class="sf-menu">
      <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-home menu-item-1587 dd-tab" id="menu-item-1587">
       <a href="http://blog.cos.name/taoshi">
        首页
       </a>
      </li>
      <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-1590 dd-tab" id="menu-item-1590">
       <a href="http://blog.cos.name/taoshi/about/">
        关于
       </a>
      </li>
      <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-1588 dd-tab" id="menu-item-1588">
       <a href="http://statisticsforfun.com">
        English
       </a>
      </li>
     </ul>
    </div>
    <!-- /.col-control -->
   </nav>
   <!-- /#nav-top -->
   <div class="fix" id="wrapper">
    <div class="custom-header fix" id="header-container">
     <header class="fix" id="header">
      <h1 class="blogtitle left">
       <a href="http://blog.cos.name/taoshi">
        从数据中看规律
       </a>
      </h1>
      <div class="description right">
       快乐统计数据分析
      </div>
     </header>
     <!-- /header -->
     <nav class="tab fix" id="nav">
      <div class="col-control left">
       <!-- right-header-widgets -->
       <div class="warea" id="right-header-widgets">
        <form action="http://blog.cos.name/taoshi/" class="searchform " method="get">
        </form>
       </div>
       <!-- /right-header-widgets -->
       <ul class="sf-menu">
        <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-home menu-item-1587 dd-tab">
         <a href="http://blog.cos.name/taoshi">
          首页
         </a>
        </li>
        <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-1590 dd-tab">
         <a href="http://blog.cos.name/taoshi/about/">
          关于
         </a>
        </li>
        <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-1588 dd-tab">
         <a href="http://statisticsforfun.com">
          English
         </a>
        </li>
       </ul>
      </div>
      <!-- /col-control -->
     </nav>
     <!-- /nav -->
    </div>
    <!-- //#header-container -->
    <div class="fix" id="container">
     <div id="main-col">
      <div class="hfeed" id="content">
       <article class="full-content post-2611 post type-post status-publish format-standard hentry category-152 category-61 category-23 category-84 category-66 category-124 tag-172 tag-114 tag-174 tag-183 tag-173 category-152-id category-61-id category-23-id category-84-id category-66-id category-124-id post-seq-1 post-parity-odd meta-position-corners fix" id="post-2611">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2014/05/12/%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%9a%e8%bf%8e%e6%8e%a5%e4%bf%a1%e6%81%af%e6%97%b6%e4%bb%a3%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%8c%91%e6%88%98/" rel="bookmark" title="[朝花夕拾] 迎接信息时代的统计挑战">
            [朝花夕拾] 迎接信息时代的统计挑战
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%99%e8%82%b2/" rel="category tag">
             教育
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e8%af%bb%e4%b9%a6/" rel="category tag">
             读书
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2014/05/12/%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%9a%e8%bf%8e%e6%8e%a5%e4%bf%a1%e6%81%af%e6%97%b6%e4%bb%a3%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%8c%91%e6%88%98/#comments">
             1 Response »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           5月
          </span>
          <span class="day">
           12
          </span>
          <span class="year">
           2014
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2014-05-12T21:33:30+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           世事变迁，最近居然忽然有时间坐下来读些东西，重新审视一下这几年统计领域的发展了。粗略回想了一下，惭愧地发现我好像连
           <a href="http://www.stat.berkeley.edu/~binyu" target="_blank">
            博士导师
           </a>
           的文章也没有系统地读过几篇，只是和自己研究有关的才详细夜读过。于是把她的一些老文章翻出来认真读读，了解一下她对统计研究和学科发展的观点。
          </p>
          <p>
           木然回首，那文已在灯火阑珊处。2007年时她写过一篇综述性文章：
           <a href="http://www.stat.berkeley.edu/~binyu/ps/embracing.pdf" target="_blank">
            Embracing Statistical Challenges in the Information Technology Age
           </a>
           , Bin Yu (2007)
           <em>
            Technometrics
           </em>
           , 49(3), 237-248。摘要如下：
          </p>
          <blockquote>
           <p>
            This article examines the role of statistics in the age of information technology (IT). It begins by examining the current state of IT and of the cyber infrastructure initiative aimed at integrating the technologies into science, engineering, and education to convert massive amounts of data into useful information. Selected applications from science and text processing are introduced to provide concrete examples of massive data sets and the statistical challenges that they pose. The thriving field of machine learning is reviewed as an example of current achievements driven by computations and IT. Ongoing challenges that we face in the IT revolution are also highlighted. The paper concludes that for the healthy future of our field, computer technologies have to be integrated into statistics, and statistical thinking in turn must be integrated into computer technologies.
           </p>
          </blockquote>
          <p>
           文中指出统计当今面临的最大挑战是“统计思维与计算技术的相互结合”。其中提到的一个主要例子还就是我博士论文的课题之一：设计更好更快的算法来区分NASA的卫星在南北极拍摄到图片中的空中云层和地面冰雪。
          </p>
          <p>
           <img src="http://i.imgur.com/cyYcPQT.jpg"/>
          </p>
          <p>
           这工作前前后后持续了超过六年的时间。现在回头想想，从中学习到的和体会到的还是挺有好玩的，同时也发现当时还是很二的。文中提到的那些点点滴滴可谓是历历在目，处处伤心泪啊！
          </p>
          <p>
           遥想当年，数据好难得。在合作者的帮助下也等了三个月才拿到两幅云图。唯一知道的就是专家相信卫星拍到的图中背景是冰天雪地的北极苦寒之地，其中有些部分有云层覆盖。记得和彬两个人第一次盯着图看时，彬问：“哪里是云？”我答：“我（gui）哪（cai）知道。” 就这样的开始了那么多年研究。
          </p>
          <p>
           <img src="http://i.imgur.com/aIO3H9A.jpg"/>
          </p>
          <p>
           哎！说你呢：“一不小心就歪楼了。” “是，是，这里面的血泪和欢心故事改天另起个楼。。。“
          </p>
          <p>
           先跳过中间过程，来看一下文中的总结。The cloud detection experience reveals several considerations that arise in interdisciplinary research involving large amounts of data:
          </p>
          <div title="Page 3">
           <div title="Page 3">
            <ol>
             <li>
              Access to good scientific or subject problems and expertise
             </li>
             <li>
              Collection and management of large data sets (including effective transmission and storage and possibly data reduction or feature selection)
             </li>
             <li>
              EDA (visualization and descriptive statistics and possibly also data reduction or feature selection)
             </li>
             <li>
              Processing mode: offline or online (streaming data)
             </li>
             <li>
              Formal modeling with computation and accuracy considerations (estimation and uncertainty assessment)
             </li>
             <li>
              Data fusion from various sources
             </li>
             <li>
              Validation using information from outside statistics(quantitative test data or qualitative validation based on subject matter).
             </li>
            </ol>
           </div>
           <p>
            这总结真是贴心啊。把它们和最近风行的大数据的4V特点（Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值））比一下，好像大V们不太关心专家意见和最后的独立验证，但更关心价值。要不说大数据是公司做的，大科学是学术做的呢 😉
           </p>
           <p>
            开个玩笑啦，其实也不能这么字面理解，价值的体现最终还是在从数据中学到的规律能否预测未知，也就是独立验证。
           </p>
           <p>
            <a href="http://www.stat.berkeley.edu/~binyu/ps/embracing.pdf" target="_blank">
             文章
            </a>
            从跨学科统计研究开始，用她的各种研究经历论述计算与机器学习和它们带来的新机遇，还有当时看大数据（massive data，那时big data 这词还没现在如此时尚）对未来统计发展将带来的改变和展望。文章结尾部分对掌握统计技能之外的其他能力的重要性也有提及：
           </p>
           <div title="Page 10">
            <blockquote>
             <p>
              In addition to statistical skills, social and interpersonal skills are needed to successfully collaborate with scientists and persuade them of the key role of statistics in scientific investigations. The importance of these nontechnical skills in interdisciplinary research suggests the need for a culture change in our community and for these nontraditional skills to be valued and recognized in, for example, tenure reviews, promotions, and awards. Last but not least, we need to educate our graduate and undergraduate students with the relevant technical and interpersonal skills.
             </p>
            </blockquote>
            <div title="Page 11">
             <p>
              最后当然是以眺望远方的姿势给大家希望喽：
             </p>
             <blockquote>
              <p>
               This is a time of data deluge; we can help build the ark and ride on it,
               <strong>
                if we so choose.
               </strong>
              </p>
             </blockquote>
             <p>
              不管你读，或者不读，
              <a href="http://www.stat.berkeley.edu/~binyu/ps/embracing.pdf" target="_blank">
               文章都在那里
              </a>
              ；不管你信，或者不信，时间都会揭晓答案。读后马上感觉有希望哦。
             </p>
            </div>
           </div>
          </div>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 21:33
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e4%bf%a1%e6%81%af%e6%97%b6%e4%bb%a3/" rel="tag">
           信息时代
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae/" rel="tag">
           大数据
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0/" rel="tag">
           机器学习
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1/" rel="tag">
           统计
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e8%ae%a1%e7%ae%97/" rel="tag">
           统计计算
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2541 post type-post status-publish format-standard hentry category-63 category-61 category-23 category-84 category-3 tag-cos tag-114 tag-167 tag-183 tag-166 tag-168 category-63-id category-61-id category-23-id category-84-id category-3-id post-seq-2 post-parity-even meta-position-corners fix" id="post-2541">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2014/02/13/%e6%96%b0%e5%b9%b4%e5%88%b0%ef%bc%8c%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%88%e4%b9%8b%e4%b8%80%ef%bc%89%e5%a4%a7%e5%ae%b6%e5%a6%82%e4%bd%95%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%9f/" rel="bookmark" title="新年到，发红包（之一）大家如何发红包？">
            新年到，发红包（之一）大家如何发红包？
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e5%aa%92%e4%bd%93%e6%8a%a5%e9%81%93/" rel="category tag">
             媒体报道
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e9%97%b2%e6%89%af/" rel="category tag">
             闲扯
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2014/02/13/%e6%96%b0%e5%b9%b4%e5%88%b0%ef%bc%8c%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%88%e4%b9%8b%e4%b8%80%ef%bc%89%e5%a4%a7%e5%ae%b6%e5%a6%82%e4%bd%95%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%9f/#comments">
             4 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           2月
          </span>
          <span class="day">
           13
          </span>
          <span class="year">
           2014
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2014-02-13T03:10:14+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           微信红包在马年来临之际着实是火了一把。在抢红包的兴奋中，大家欢欢喜喜的过了个年。红包红包漫天飞，谁抢到归谁。。。
          </p>
          <p style="text-align: left">
           <img src="http://img.ithome.com/newsuploadfiles/2014/1/20140128_222649_24.jpg"/>
          </p>
          <p style="text-align: left">
           要说最火的，还是这个“拼手气群红包”。发红包者自定红包总额和红包个数，由微信随机决定每个来领红包的群友所领到红包的金额。放下拼手气的一面以后再谈，这个红包发放平台顷刻间就产生了一些“大数据”。有人问了，这数据能算大叔句？腾讯科技文章《
           <a href="http://tech.qq.com/a/20140131/001281.htm" target="_blank">
            指尖上的除夕：在线娱乐方式的时代变迁
           </a>
           》中报道：
          </p>
          <blockquote>
           <p>
            根据
            <a href="https://www.tenpay.com/" target="_blank">
             财付通
            </a>
            官方统计，截止1月30日除夕夜，平均每个红包10.7元，抢了最多红包的：869个。除夕夜参与红包活动的总人数达到482万，最高峰出现在零点时分，瞬间峰值达到每分钟2.5万个红包被拆开。
           </p>
          </blockquote>
          <p>
           数据不小哦！更哇呀呀丫的是：869个红包，点屏幕的手都要麻了吧。
          </p>
          <p style="text-align: left">
           鉴于经常游走在数据和统计边缘，混迹于
           <a href="http://cos.name" target="_blank">
            COS
           </a>
           八卦群中，不由得想想这些数据有神马神用途吗？没准可以写篇像前几年科学杂志上发表的 《
           <a href="http://blog.cos.name/taoshi/2011/10/07/science_twitter_work/" rel="bookmark" target="_blank" title="《科学》：Twitter反映人们工作压力巨大 (真的吗？)">
            Twitter反映人们工作压力巨大
           </a>
           》的高端文章呢 🙂
          </p>
          <p style="text-align: left">
           那研究什么呢？红包这东西，收到的人开心（除了本人这类没法绑定银行卡，无法提现的，哭！），发红包的人也挺开心。要不就研究一下红包的发放喜好？没准这结果和传统风俗沾个边，可以申请个中华文化遗产神马的。说干就干！
          </p>
          <p style="text-align: left">
           一般定下心来做事时，才发现开头总是很尴尬的。丰满的理想是冲着CNS去的，骨感的现实是到哪去拿这大数据。不免想到一个关于大数据的出处不详，翻译从略的神评论：
          </p>
          <blockquote>
           <p>
            Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too.
           </p>
          </blockquote>
          <p style="text-align: left">
           谁让咱是干统计这行的呢，虽然没有微信的内部数据，但咱马上有办法。抽样呗！
          </p>
          <ul>
           <li>
            把自己抢到的十几个红包数据录入电脑。这时画外音响起：“同学，这不科学！数据量太小了”
           </li>
           <li>
            好吧，找到个有趣有闲的
            <a href="http://taiyun.cos.name">
             COSer
            </a>
            ，把他抢到的上百个红包数据录入。画外音又响起：“抽样课上学的都还给老师了吗？这不科学，不是随机样本”
           </li>
           <li>
            再好吧，搞个
            <a href="http://www.wenjuan.com/s/YzIFV3/" target="_blank">
             网上调查
            </a>
            ，再找
            <a href="http://www.weibo.com/mathematicalculture" target="_blank">
             @数学文化
            </a>
            等大V推广一下，这下你总满意了吧。画外音：“¥＃＊&amp;％¥＃。。。”
           </li>
           <li>
            有完没完，就这样了！再说我就。。。有种你收集个随机样本我看看？
           </li>
          </ul>
          <p style="text-align: left">
           数据拿来分析一下再说，共收录到144个群红包。这篇就只谈每个群红包的总额和红包个数了。先上图：
          </p>
          <div class="wp-caption aligncenter" style="width: 585px">
           <a href="http://i.imgur.com/Ta4Vl27.jpg">
            <img src="http://i.imgur.com/Ta4Vl27.jpg"/>
           </a>
           <p class="wp-caption-text">
            每个群红包总额的分布
           </p>
          </div>
          <p style="text-align: left">
           大家对6和8以及各种整数的偏好很明显吗。再看每个群红包发给多少人。
          </p>
          <div class="wp-caption aligncenter" style="width: 585px">
           <a href="http://i.imgur.com/SytBr0Y.jpg">
            <img src="http://i.imgur.com/SytBr0Y.jpg"/>
           </a>
           <p class="wp-caption-text">
            每个群红包所发人数
           </p>
          </div>
          <p style="text-align: left">
           好像20个人以下居多哦，没有太多散财童子出现，呵呵！然后该是每个群发红包的平均金额了吧。
          </p>
          <div class="wp-caption aligncenter" style="width: 585px">
           <a href="http://i.imgur.com/a2gXrTE.jpg">
            <img src="http://i.imgur.com/a2gXrTE.jpg"/>
           </a>
           <p class="wp-caption-text">
            平均红包金额
           </p>
          </div>
          <p style="text-align: left">
           除了发现一个888元包十个红包的土豪，别的都在平均50元以下。所有144个群红包的平均红包金额为7.08元，和财富通发布的“平均每个红包10.7元”的大数据结果有些差距。不过看下图：
          </p>
          <div class="wp-caption aligncenter" style="width: 585px">
           <a href="http://i.imgur.com/BgzOQQ4.jpg">
            <img src="http://i.imgur.com/BgzOQQ4.jpg"/>
           </a>
           <p class="wp-caption-text">
            红包平均金额 v.s. 红包发放个数
           </p>
          </div>
          <p style="text-align: left">
           原来红包平均金额和红包发放个数还有点关系呢。这位COSer同学（嗑嗑，说你呢），你都是从哪抢的红包啊？
          </p>
          <ul>
           <li>
            COSer: 抢到的平均红包金额 4.63元
           </li>
           <li>
            其他人：抢到的平均红包金额 14.31元
           </li>
          </ul>
          <p style="text-align: left">
           太拖累大家了，又都被你平均了:) 不过非常感谢你顶风冒雪地去输入数据，我决定把我抢来的红包一次性转发给你，拉高你的平均值。
          </p>
          <p style="text-align: left">
           好吧，这次就先到这，休息一下。下篇再来研究微信这个手气红包到底多拼手气 。。。
          </p>
          <p style="text-align: left">
           －－－－－－－－－－－－－－－－－－－－－－－－－－－－－
          </p>
          <p style="text-align: left">
           p.s. 非常感谢各位在网上贡献数据的朋友：牛肉干，Anfeifei，zy，聪葱，苏建冲 等
          </p>
          <p style="text-align: left">
           p.p.s. 有兴趣CNS的同学都再去为
           <a href="http://www.wenjuan.com/s/YzIFV3/" target="_blank">
            网上调查
           </a>
           贡献几个红包数据吧，我们可以写众包做业的可行性和可靠性分析什么的 🙂
          </p>
          <p style="text-align: left">
           p.p.p.s. 说个题外的，为吗我碰到的都说发出去红包总金额比收到的少很多呢？钱都去哪了？奥数好的给解释一下吧。。。（都被陈光标卷走了？）
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 03:10
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/cos/" rel="tag">
           COS
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae/" rel="tag">
           大数据
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%be%ae%e4%bf%a1/" rel="tag">
           微信
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1/" rel="tag">
           统计
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bd%91%e4%b8%8a%e8%b0%83%e6%9f%a5/" rel="tag">
           网上调查
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%be%a4%e5%8f%91%e7%ba%a2%e5%8c%85/" rel="tag">
           群发红包
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2273 post type-post status-publish format-standard hentry category-61 category-23 category-84 category-66 category-76 tag-114 tag-183 tag-134 category-61-id category-23-id category-84-id category-66-id category-76-id post-seq-3 post-parity-odd meta-position-corners fix" id="post-2273">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2013/05/29/%e5%a4%a7%e6%95%b0%e6%8d%ae%e6%97%b6%e4%bb%a3%e5%92%8c%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90%e9%9c%80%e6%b1%82%ef%bc%8c%e7%bb%9f%e8%ae%a1%e8%bf%98%e6%b2%be%e8%be%b9%e5%90%97%ef%bc%9f/" rel="bookmark" title="大数据时代和数据分析需求，统计还沾边吗？">
            大数据时代和数据分析需求，统计还沾边吗？
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e8%81%8c%e4%b8%9a%e4%bb%8b%e7%bb%8d/" rel="category tag">
             职业介绍
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2013/05/29/%e5%a4%a7%e6%95%b0%e6%8d%ae%e6%97%b6%e4%bb%a3%e5%92%8c%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90%e9%9c%80%e6%b1%82%ef%bc%8c%e7%bb%9f%e8%ae%a1%e8%bf%98%e6%b2%be%e8%be%b9%e5%90%97%ef%bc%9f/#comments">
             2 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           5月
          </span>
          <span class="day">
           29
          </span>
          <span class="year">
           2013
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2013-05-29T00:26:25+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           大数据时代的悄然到来和计算能力爆炸式增长，让做统计分析的各类人士不禁要重新打量一下自己的技能包，看看是不是很快要被时代浪潮以
           <a href="http://normaldeviate.wordpress.com/2013/04/13/data-science-the-end-of-statistics/" target="_blank">
            大浪淘沙的方式清洗掉了
           </a>
           。
          </p>
          <p>
           到底大数据是怎么来的呢？可以用来干什么呢？我们就先拿2012美国总统大选来举个例子看看。比如说我们想预测在2012年11月6日，
          </p>
          <ul>
           <li>
            <strong>
             问题1:
            </strong>
            奥巴马和罗姆尼谁当选美国总统？
           </li>
          </ul>
          <p>
           我们可以用什么数据来做这个预测呢？最常用的就是民调数据了，通过有选择性的挑选一些可能选民来问他们的倾向。这好像是个传统统计干的事。
           <a href="http://blog.cos.name/taoshi/2012/07/26/john-and-david/" target="_blank">
            早在1962年John Tukey就已经开始做了
           </a>
           。
          </p>
          <p style="text-align: center">
           <img src="http://i.imgur.com/4C6ec.jpg"/>
          </p>
          <ul>
           <li>
            <strong>
             问题2:
            </strong>
            奥巴马和罗姆尼各自赢得了哪些州？
           </li>
          </ul>
          <p>
           这也不难回答，我们还是可以用民调数据了，只不过要在每个州都进行抽样调查，在仔细的分析汇总一下。数据量也就比预测全国的结果时用的多几十倍而已。而且如果知道了那些州两人相差太大，一方就没有必要再大肆花钱做广告了 ：）
          </p>
          <p>
           <img src="http://i.imgur.com/OxBWOGJ.jpg"/>
          </p>
          <ul>
           <li>
            <strong>
             问题3:
            </strong>
            奥巴马和罗姆尼各自赢得了县？
           </li>
          </ul>
          <p>
           再做更小范围，更详细的抽样调查也许可行，也就是在加上几十到几百倍的数据量和相应的花费吧，同时为了提高准确性我们或许还需要收集和用到更多的其他辅助数据，比如各地的人口构成，年龄构成。。。但这个问题如果回答的好的话就可以更有效的投放广告到地方市场了。
          </p>
          <p style="text-align: center">
           <a href="http://www.princeton.edu/~rvdb/JAVA/election2012/">
            <img src="http://i.imgur.com/vZH2Tkq.jpg"/>
           </a>
          </p>
          <p>
           （这个数据可视化很灿，还有更酷的
           <a href="http://www.princeton.edu/~rvdb/JAVA/election2012/" target="_blank">
            在这里
           </a>
           ，by
           <a href="http://www.princeton.edu/~rvdb/" target="_blank">
            Robert J. Vanderbei
           </a>
           , Professor of
           <a href="http://orfe.princeton.edu/">
            Operations Research and Financial Engineering
           </a>
           at Princeton。看，不是统计学家做的吧。）
          </p>
          <ul>
           <li>
            <strong>
             问题4:
            </strong>
            奥巴马或罗姆尼赢得某个人的选票的机会？
           </li>
          </ul>
          <p>
           对这个问题的回答就比较费些劲了，这就牵扯到选战中的精细估计（micro-targeting）了。如果这个估计的可以做的准，对于摇晃选民就可以电话或上门拜访，狂轰滥炸，试图说服了。
          </p>
          <p>
           那怎么对每个人的投票倾向有个好的估计呢？关于个人很多因素就可以粉墨登场了，比如：党派，年龄，性别，职业，婚姻情况，家庭人数，所开汽车型号，所用手机型号，等等。。。这数据量一下就上去了。再加上这些年随着社交网络的兴起，我们可以在用上个人和其他人的社交关系，朋友活动，发帖转帖等等等。。。一下子数据量级就上去了，也就可以成为大数据了。这些海量数据也让我们有机会回答以前很难想到能够回答的问题。
          </p>
          <p>
           从这几个关心问题的转变过程中，我们可以看到与问题对应的所需数据收集和分析方法的演化。当我们关心的问题越细节，越多样化，所需要的资源和技术就越多。
          </p>
          <ul>
           <li>
            <strong>
             问题5:
            </strong>
            如果把第4个问题中的“奥巴马或罗姆尼赢得某个人的选票的机会？”改成“某个人在上网时点击某个展示广告的机会”会怎么样呢？
           </li>
          </ul>
          <p>
           我们这就看到 Google, Baidu等一拥而上，不计成本的计算了，而且所能应用的变量就可能是他们能拿到关于“某人”的所有的线上脚印和线下信息了。
          </p>
          <p>
           <a href="http://www.techinasia.com/baidu-googles-long-lost-search-engine-love-child/">
            <img src="http://i.imgur.com/t7Kh6hH.png"/>
           </a>
          </p>
          <p>
           问题问了一圈，这些听起来都很是十足的统计分析啊。本应该是统计分析人士应该是施展才华的时代，那为何还会有要被时代淘汰的论调呢？记得Leo Brieman 在
           <a href="http://cos.name/2012/02/what-is-the-stat-dept-25-years-from-now/" target="_blank">
            1994年Berkeley 统计系毕业典礼上的讲话
           </a>
           中提到的：
          </p>
          <blockquote>
           <p>
            要知道何去何从，我们必须清楚自己真正所擅长的是什么。统计的核心是什么？需要我们是一流的数学家吗？几乎不用。那是什么呢？
            <strong>
             成为收集信息，分析信息，并得出结论的专家！
            </strong>
            这才是我们真正所擅长的。所以我认为，这正是我们统计学家应有的定位，我们的身份危机才会到解决。
           </p>
          </blockquote>
          <p>
           在大数据的时代，我们还有资格说我们是“
           <strong>
            收集信息，分析信息，并得出结论的专家”
           </strong>
           吗？如果我们不具备收集和处理大数据所需要的计算能力和技巧，没有数据分析的直觉和经验，如何能得出有说服力和经得起检验的结论呢？
          </p>
          <p>
           现在讨论我们是否是一流的数学家好像已经没有很么意义。我们不妨问问自己，比起一流的计算机学家，我们还有何优势能更好的“
           <strong>
            收集信息，分析信息，并得出结论”
           </strong>
           ？当我们数据收集和处理能力越来越强时，大家关心的问题的范围也越来越广，细节要求越来越高，需要的数据越来越多。这个发展趋势不广在商业，计算机信息领域天天看到，我们在科学研究，医疗制药，政府服务等各个方面的能力和雄心都在爆炸式的增长，由此带来的问题和分析需求也在爆炸。
          </p>
          <p>
           在这形势下，我们可以考虑一下在这些牵扯大数据的问题中，统计又如何能更有效的帮助别人分析问题，得出结论。我们的曾经的神器，极限定理以及其赖以生存的测度理论，是否还有那么神奇和有用呢？与此同时我们欠缺的是什么工具呢？如果我们做的理论问题的假设与实际问题和数据的统计距离太显著，还有没有必要钻这牛角尖？如果我们不和做实际问题的一起工作，一起了解问题的细节，又怎能帮助他们呢？
          </p>
          <p>
           从另一个角度看，我想在拥有与计算机专业的同事相差不算远的计算机技能的基础上，统计专科在数据收集方法（试验设计，抽样方法等），模型选择以及模型对outlier和模型假设的敏感度，在数据支持下对可能结论的批判型思维，以及对结论的不确定型描述等方面还是很大优势的。不过这些方面的技能好像还都不是简单的靠读理论统计课本能直接学习到或证明数学定理能解决的，它们都是在解决实际问题和数据分析的过程中通过不断犯错误来提高的。
          </p>
          <p>
           当然了，“拥有与计算机专业的同事相差不算远的计算机技能的基础上” 是一个很大很大的需要检验的假设，要拥有这样的基础需要从课程选择，课外导向，个人学习规划等方面出发主动的学习。就像 Michael Jordan，
           <em>
            在
            <a href="http://huati.weibo.com/k/21%E4%B8%96%E7%BA%AA%E7%9A%84%E8%AE%A1%E7%AE%97%E5%A4%A7%E4%BC%9A?from=510">
             #21世纪的计算大会#
            </a>
           </em>
           上做”大数据的分治和统计推断”的
           <a href="http://blog.cos.name/taoshi/2012/12/18/大数据，统计精度与计算复杂度/" target="_blank">
            主题演讲中提到的
           </a>
           ：
          </p>
          <blockquote>
           <p>
            If you didn’t understand a lot of the talk, it is a bit technical, maybe you should go take some statistics class if you are a computer scientist. If you are a statistician, I don’t know if any of you are here, you probably should take some computer science classes.
           </p>
           <p>
            The future is for those people who can take these two fields and integrate them into one brain, not having to bring every project to statisticians, trying to have them talking to computer scientists using some translation software. But one brain can bring these ideas jointly together. How do I think about my statistical risk and the errors I’m going to make when data come into a computer and how do I think about stating that so I don’t have to break when I have more than a few hundred thousand data points.
           </p>
          </blockquote>
          <p>
           <embed align="middle" allowfullscreen="true" allowscriptaccess="always" height="400" quality="high" src="http://player.youku.com/player.php/sid/XNDg3ODE1MzU2/v.swf" type="application/x-shockwave-flash" width="480">
           </embed>
          </p>
          <p>
           当统计学培养出来的学生能得心应手的对（大）数据进行分析时，叫不叫数据科学就无所谓了，因为社会的需求会最终决定一个专业的方向和发展。
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 00:26
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae/" rel="tag">
           大数据
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1/" rel="tag">
           统计
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e8%ae%a1%e7%ae%97/" rel="tag">
           计算
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-1907 post type-post status-publish format-standard hentry category-61 category-23 category-84 category-66 category-76 tag-180 tag-130 tag-131 tag-132 category-61-id category-23-id category-84-id category-66-id category-76-id post-seq-4 post-parity-even meta-position-corners fix" id="post-1907">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2013/04/05/%e4%b8%89%e6%9c%88%e7%bb%9f%e8%ae%a1%e4%b9%8b%e9%83%bd%e6%b2%99%e9%be%99%e8%a7%81%e9%97%bb/" rel="bookmark" title="三月统计之都沙龙见闻">
            三月统计之都沙龙见闻
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e8%81%8c%e4%b8%9a%e4%bb%8b%e7%bb%8d/" rel="category tag">
             职业介绍
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2013/04/05/%e4%b8%89%e6%9c%88%e7%bb%9f%e8%ae%a1%e4%b9%8b%e9%83%bd%e6%b2%99%e9%be%99%e8%a7%81%e9%97%bb/#comments">
             2 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           4月
          </span>
          <span class="day">
           05
          </span>
          <span class="year">
           2013
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2013-04-05T00:30:43+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           两星期前和
           <a href="http://weibo.com/u/1862459915" target="_blank">
            西二旗著名民工
           </a>
           参加了
           <a href="http://cos.name" target="_blank">
            统计之都
           </a>
           举办的沙龙活动。在沙龙中能同时与业界工作的朋友和在校学生进行交流，收获很多。首先要谢谢统计之都参加这次活动的组织者。之后忙于各种闲事而未能总结，现在补上。
          </p>
          <p>
           我先从
           <a href="http://cos.name/about/" target="_blank">
            统计之都的主页
           </a>
           上抄一段：
          </p>
          <blockquote>
           <p>
            纵观现今国内统计学理论和应用的发展，一方面我们不难发现统计学在应用领域的巨大潜力——现代管理、咨询、商业、经济、金融、医药、生物等等，无不需要数据的力量，而另一方面我们也不得不承认，国内统计学的应用很大程度上受理论的制约——无论是应用界的人们对统计学基础理论知识的欠缺，还是学术界所研究的理论对应用领域问题的轻视。
           </p>
          </blockquote>
          <p>
           我感觉把上面文字中的“统计学”改成“数据科学”也不太偏颇。
          </p>
          <p>
           言归正传，首先大家各自介绍门派，在这中间就听到工业界对数据分析能力的需求，好像大家都有数据可分析。百度，腾讯，京东，品友等等就算了吧，新华社也要凑热闹，好吧。面对网络信息和电子商务带来的大量数据，大家很关心的问题就是如何从它们中提取出有用的信息来（当然能变现就更好了）。
          </p>
          <p>
           讨论当然是以向
           <a href="http://weibo.com/u/1862459915" target="_blank">
            西二旗民工余凯
           </a>
           讨教最近如火如荼的Deep Learning开始了。余凯给大家介绍了Deep Learning和Neural Networks以及它们在百度多媒体方面的应用。其中提到的语音输入和全网搜图很神奇。虽然没细讲，我还是觉得余凯提到的浮点计算和定点计算很有趣。我们做统计的平时是很少去考虑这些计算速度和精度的平衡的。
          </p>
          <p>
           工业界的朋友提到招到的学生开始时不懂业务，只懂公式。同时在校学生也提出觉学得不实际，不知学到的方法公式在实际中怎么用。那怎么办呢？靠天靠地不如靠自己哦。见到有趣的问题，可以上手的数据，就拿来试试先。另外走出校园，到公司或其他单位实习一下也可能会很有帮助。虽然教育和社会需求的接轨可能要一定时间和过程，但个人的主观能动性还是很有潜力的。
          </p>
          <p>
           作为统计专科的学生，学些数据库知识，多练习一下编程，再加上些对实际问题的了解，应该是大有用武之地的。
          </p>
          <p>
           沙龙也来很多原来从事别的行业而后来转进数据分析行业的人士，比如这次
           <a href="http://weibo.com/lseaman" target="_blank">
            品友来的数据架构师
           </a>
           以前就研究火星电离层的（不明觉厉）。还有写了
           <a href="http://cos.name/2013/01/story-of-normal-distribution-1/" target="_blank">
            正态分布的前世今生
           </a>
           和
           <a href="http://cos.name/2013/01/lda-math-gamma-function/" target="_blank">
            LDA系列
           </a>
           的
           <a href="http://weibo.com/rickjin" target="_blank">
            rickjin
           </a>
           也不是统计专科出身的。不论原来是做什么专科的，大家在用数据分析问题，解决问题，再提出问题这个屋檐下开心的交流了一个下午。
          </p>
          <p>
           数据分析在中国的大规模应用这几年才刚刚开始，但是发展飞速。希望以后能更多看到这样对其发展有促进作用的沙龙活动。最后再次感谢组织这次活动的
           <a href="http://weibo.com/taiyun" target="_blank">
            统计制度小二
           </a>
           。
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 00:30
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="tag">
           数据挖掘
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e6%b2%99%e9%be%99/" rel="tag">
           沙龙
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e4%b9%8b%e9%83%bd/" rel="tag">
           统计之都
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e6%95%99%e8%82%b2/" rel="tag">
           统计教育
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2122 post type-post status-publish format-standard hentry category-61 category-23 category-66 tag-bootstrape tag-michael-jordan tag-123 tag-64 category-61-id category-23-id category-66-id post-seq-5 post-parity-odd meta-position-corners fix" id="post-2122">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2012/12/18/%e5%a4%a7%e6%95%b0%e6%8d%ae%ef%bc%8c%e7%bb%9f%e8%ae%a1%e7%b2%be%e5%ba%a6%e4%b8%8e%e8%ae%a1%e7%ae%97%e5%a4%8d%e6%9d%82%e5%ba%a6/" rel="bookmark" title="大数据，统计精度与计算复杂度">
            大数据，统计精度与计算复杂度
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2012/12/18/%e5%a4%a7%e6%95%b0%e6%8d%ae%ef%bc%8c%e7%bb%9f%e8%ae%a1%e7%b2%be%e5%ba%a6%e4%b8%8e%e8%ae%a1%e7%ae%97%e5%a4%8d%e6%9d%82%e5%ba%a6/#comments">
             7 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           12月
          </span>
          <span class="day">
           18
          </span>
          <span class="year">
           2012
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2012-12-18T04:18:27+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           大数据好热好热啊！统计的时代好像飘然而至了。可我们准备好了吗？答案吗，当然还是，“it depends”。
          </p>
          <p>
           最近看到的很多在大数据上有进展的问题基本上是预测问题，比如：搜索问题，语音图像识别问题，推荐系统问题，广告放送问题，社交网络问题。。。 问题的答案和算法的结果一般是一个或一串预测值。算法也是百花齐放：各类回归，各类聚类，矩阵分解，深度学习。。。
          </p>
          <p>
           这些预测值的准确性基本是靠算法在独立验证数据集上的表现来刻画。忽然间统计的一些基本概念，像标准差，置信区间，一类二类错误，等等都被大数据淹没的无影无踪。当忽然间体会到理想很丰满，现实很骨感的书本与实践的差距时，摆弄惯了$1 / \sqrt{n}$ 的统计人（我也算一员）有些无所适从。
          </p>
          <p>
           在数据和算法当道的时代，有时不仅要问“大数据和统计还有关系吗？” 不妨听听这个报告：
          </p>
          <blockquote>
           <p>
            <em>
             加州大学伯克利分校电气工程与计算机系、统计学系教授Michael Jordan，在
             <a href="http://huati.weibo.com/k/21%E4%B8%96%E7%BA%AA%E7%9A%84%E8%AE%A1%E7%AE%97%E5%A4%A7%E4%BC%9A?from=510">
              #21世纪的计算大会#
             </a>
             上做”大数据的分治和统计推断”的主题演讲，就解决大数据集中获得置信区间和大型矩阵求全法的问题，提出了新的解决方案。
            </em>
           </p>
          </blockquote>
          <p>
           <embed align="middle" allowfullscreen="true" allowscriptaccess="always" height="400" quality="high" src="http://player.youku.com/player.php/sid/XNDg3ODE1MzU2/v.swf" type="application/x-shockwave-flash" width="480">
           </embed>
          </p>
          <p>
           讲座主要是讲大数据下统计和计算的结合问题，同时提出用subsample的方法在大数据上来建立bootstrape 置信区间的。对，不光是关心估计或预测，同时想给出置信区间。统计方法对不确定性的刻划在大数据一样重要，只不过大家还没有足够精力和计算能力来估计它。
          </p>
          <p>
           如果你没太听懂这讲座中提到的方法，没关系。可以跳到 33分钟听结尾的一席话。
          </p>
          <blockquote>
           <p>
            If you didn’t understand a lot of the talk, it is a bit technical, maybe you should go take some statistics class if you are a computer scientist. If you are a statistician, I don’t know if any of you are here, you probably should take some computer science classes.
           </p>
           <p>
            The future is for those people who can take these two fields and integrate them into one brain, not having to bring every project to statisticians, trying to have them talking to computer scientists using some translation software. But one brain can bring these ideas jointly together. How do I think about my statistical risk and the errors I’m going to make when data come into a computer and how do I think about stating that so I don’t have to break when I have more than a few hundred thousand data points.
           </p>
           <p>
            That’s just not what we have been teaching students. And, so, we are still not doing a good job in teaching students, and we may talk about that later. Even though there are classes on this, you guys can go and learn it by yourself. If you are taking computer science classes, take a few stats classes. Pick some books, sit them by your bed and read them every night, and make sure you can do these two things together. This is the future of the field.
           </p>
           <p>
            Thank you!
           </p>
          </blockquote>
          <p>
           既然报告中提到了翻译软件，我也就随机的试了一下百度翻译：
          </p>
          <blockquote>
           <p>
            如果你不懂的许多谈话，这是一个有点技术，也许你应该采取一些统计类如果你是电脑科学家。如果你是一个统计学家，我不知道如果你在这里，你也许应该采取一些计算机科学课。
           </p>
           <p>
            未来是为这些人谁可以把这两个领域和整合成一个大脑，不必把每一个项目的统计人员，想让他们谈论计算机科学家使用翻译软件。但一个大脑可以把这些想法联合在一起。我怎么觉得我的统计风险和错误，我要当数据进入计算机，我怎么想说，所以我没有休息的时候，我已经超过几十万的数据点。
           </p>
           <p>
            这不是我们所教学生。和，那么，我们还是做得不好的学生在教学中，我们可以谈一下。即使有课上，你们可以去学习一下。如果你是以计算机科学课，带几个属性类。拿一些书，坐在你的床上，他们每天晚上读他们，并确保你能做到这两件事一起。这是该领域的未来。
           </p>
           <p>
            谢谢！
           </p>
          </blockquote>
          <p>
           还不错。最后多说一句，第一次见Michael Jordan穿的如此正式 🙂
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 04:18
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/bootstrape/" rel="tag">
           bootstrape
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae%ef%bc%8cmichael-jordan/" rel="tag">
           大数据，Michael Jordan
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e6%8e%a8%e6%96%ad/" rel="tag">
           统计推断
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bd%ae%e4%bf%a1%e5%8c%ba%e9%97%b4/" rel="tag">
           置信区间
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-1847 post type-post status-publish format-standard hentry category-61 category-23 category-84 tag-181 tag-102 tag-101 category-61-id category-23-id category-84-id post-seq-6 post-parity-even meta-position-corners fix" id="post-1847">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2012/11/26/%e7%be%a4%e4%bd%93%e7%9a%84%e6%99%ba%e6%85%a7/" rel="bookmark" title="群体的智慧">
            群体的智慧
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2012/11/26/%e7%be%a4%e4%bd%93%e7%9a%84%e6%99%ba%e6%85%a7/#comments">
             7 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           11月
          </span>
          <span class="day">
           26
          </span>
          <span class="year">
           2012
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2012-11-26T23:48:02+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           首先声明：这里的群体只在数据分析范畴，不要瞎联想到社会实践中。不慎应用，后果自负。在说任何之前，先推荐一本书：
           <a href="http://book.douban.com/subject/4924898/" target="_blank">
            群体的智慧
           </a>
          </p>
          <p>
           <img src="http://img3.douban.com/lpic/s4507474.jpg"/>
          </p>
          <p>
           我也不知道翻译的水平如何，如果读不下去可以看
           <a href="http://www.amazon.com/Wisdom-Crowds-James-Surowiecki/dp/0385721706" target="_blank">
            原版的
           </a>
           。
          </p>
          <p>
           早就在想传播一下这个有趣的话题，但它实在是太大，太沉重，不知在哪个范围内讨论比较好。
           <a href="http://book.douban.com/subject/4924898/" target="_blank">
            群体的智慧
           </a>
           一书的开头就把这个话题扩大到民主决策和精英决策的对比，实在出乎我的准备范围。
          </p>
          <p>
           刚好又
           <a href="http://www.loyhome.com/我（对于统计方法）的一些偏见/" target="_blank">
            被人点名
           </a>
           ，
          </p>
          <blockquote>
           <p>
            再再再比如，没有假设简单的那些机器学习模型中，我最最最最无法认同的就是最粗暴的把
            <a href="http://www.loyhome.com/r%e5%b9%b6%e8%a1%8c%e5%81%9a%e5%a4%a7%e6%95%b0%e6%8d%ae%e6%97%b6%e9%97%b4%e5%ba%8f%e5%88%97%e5%88%86%e6%9e%90%e4%b8%8ebootstrap/" title="R并行做大数据时间序列分析与bootstrap">
             各种模型结果混合起来
            </a>
            ，用类似bootstrap的方法求得置信区间之类…这简直是就毫无办法之下的粗暴猜测嘛。
           </p>
           <p>
            然后最后一个问题，施老师说，这个某种程度上反映了“群体智慧”。呃，好吧，就算每个模型都提取了一定的信息量，然后这么混合起来就是万灵药了？怎么听怎么像中药一锅煮的感觉，而不是西药那么配方分明…
           </p>
          </blockquote>
          <p>
           那我就在我知道的数据分析的框架内来汇报一下。 我觉得（个人意见，个人意见）数理统计作为数据分析的一部分，基本上就是在用平均的想法争取把误差减小，让有用信号自己站出来。不管是参数估计，假设检验，各类回归，各类预测，时间空间，黑箱白箱，黑猫白猫。。。但是怎么平均就体现了各种方法的区别。
          </p>
          <p>
           那就先举个最粗暴的中药一锅煮的例子：
           <a href="http://zh.wikipedia.org/wiki/随机森林" target="_blank">
            随机森林
           </a>
           （Random Forest），
           <a href="http://en.wikipedia.org/wiki/Leo_Breiman" target="_blank">
            Loe Breiman
           </a>
           的大作。在做分类（classification）时，每次从已有数据中
           <em>
            <strong>
             随机选取
            </strong>
           </em>
           （bootstrap 或随机抽) 一部分观测值和
           <em>
            <strong>
             随机抽出一小部分变量
            </strong>
           </em>
           。在这个小数据上建个小的分类树。
           <em>
            <strong>
             独立重复
            </strong>
           </em>
           上面一步得到一批小的分类树。等有新的观测值要被分类时，把TA扔进各个弱小的分类树来分别做决定，最后让这些小树来
           <em>
            <strong>
             投个票
            </strong>
           </em>
           就行了。这没有任何模型和技术含量的天马流行算法行吗？实践证明它还真行。
          </p>
          <p>
           说了半天，这和群体的智慧有关系吗？我当然也不同意“就算每个模型都提取了一定的信息量，然后这么混合起来就是万灵药了”。何时可以利用群体的智慧也是有条件的。前人和现代人经验总结了
           <a href="http://en.wikipedia.org/wiki/The_Wisdom_of_Crowds" target="_blank">
            四条
           </a>
           ：
          </p>
          <table>
           <tbody>
            <tr>
             <td>
              Diversity of
              <a href="http://en.wikipedia.org/wiki/Opinion" title="Opinion">
               opinion
              </a>
             </td>
             <td>
              Each person should have private information even if it’s just an eccentric interpretation of the known facts.
             </td>
            </tr>
            <tr>
             <td>
              Independence
             </td>
             <td>
              People’s opinions aren’t determined by the opinions of those around them.
             </td>
            </tr>
            <tr>
             <td>
              Decentralization
             </td>
             <td>
              People are able to specialize and draw on local knowledge.
             </td>
            </tr>
            <tr>
             <td>
              Aggregation
             </td>
             <td>
              Some mechanism exists for turning private judgments into a collective
              <a href="http://en.wikipedia.org/wiki/Decision_making" title="Decision making">
               decision
              </a>
              .
             </td>
            </tr>
           </tbody>
          </table>
          <p>
           回头看一下，
           <a href="http://zh.wikipedia.org/wiki/随机森林" target="_blank">
            随机森林
           </a>
           不正是在试图复制用随机抽取观测值和变量来产生Diversity of opnion，用独立随机抽取来使小树们有自己的见解（Independece），用小树而不是线性模型来提取局部信息（Decentralization），用一树一票来民主集中（Aggregation）吗？
          </p>
          <p>
           所以我认为这个看来最粗暴黑箱子其实还是很透明的，而且是经过精心合理设计。中药一锅煮应该不会很有效，但煮什么，怎么煮还是很有学问的。煮好了没准搞出了凉茶什么的百病通杀呢（placebo effect)。
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 23:48
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="tag">
           数据分析
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%be%a4%e4%bd%93%e7%9a%84%e6%99%ba%e6%85%a7/" rel="tag">
           群体的智慧
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e9%9a%8f%e6%9c%ba%e6%a3%ae%e6%9e%97/" rel="tag">
           随机森林
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-188 post type-post status-publish format-standard hentry category-61 category-23 category-3 tag-black-box tag-prediction category-61-id category-23-id category-3-id post-seq-7 post-parity-odd meta-position-corners fix" id="post-188">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2011/09/21/fcwr/" rel="bookmark" title="非诚勿扰">
            非诚勿扰
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e9%97%b2%e6%89%af/" rel="category tag">
             闲扯
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2011/09/21/fcwr/#comments">
             7 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           9月
          </span>
          <span class="day">
           21
          </span>
          <span class="year">
           2011
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2011-09-21T13:48:00+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           儿子最近喜欢上了看
           <a href="http://fcwr.jstv.com/" target="_blank">
            这个节目
           </a>
           （特别爱听灯灭时的声音）。反正是学中文，看就看呗。
          </p>
          <p>
           有趣的是
           <a href="http://www.youtube.com/watch?v=qFtnab5PKOE" target="_blank">
            最近一期
           </a>
           <em>
           </em>
           来了位
           <a href="http://weibo.com/firmwolf" target="_blank">
            杨健
           </a>
           同学，做了个关于节目中男同学牵手成功率的数据分析（
           <a href="http://www.youtube.com/watch?v=qFtnab5PKOE" target="_blank">
            <em>
             8
            </em>
            ：
            <em>
             15
            </em>
            －
            <em>
             10
            </em>
            ：
           </a>
           <em>
            <a href="http://www.youtube.com/watch?v=qFtnab5PKOE" target="_blank">
             55
            </a>
           </em>
           或
           <em>
            <a href="http://ent.joy.cn/video/3162364.htm" target="_blank">
             34
            </a>
           </em>
           <a href="http://ent.joy.cn/video/3162364.htm" target="_blank">
            ：
            <em>
             00
            </em>
            －
            <em>
             37
            </em>
            ：
            <em>
             00
            </em>
           </a>
           ）, 挺有意思。他根据108－157的50期节目的数据（2011.3.5-8.21，去掉了2个澳洲专场和1个520腾讯专场，这3场不具备数据抽样的典型性），总结了各类背景共236名男同学的牵手成功率，比如：
           <em>
            30
           </em>
           －
           <em>
            34
           </em>
           岁
           <em>
           </em>
           （
           <em>
            24.19
           </em>
           ％），山东人（
           <em>
            23.08
           </em>
           ％）
           <em>
           </em>
           ，
           <em>
            IT
           </em>
           男
           <em>
           </em>
           （
           <em>
            5.88
           </em>
           ％
           <em>
           </em>
           ）。对于作为身兼以上三条的男同学（
           <a href="http://blog.sina.com.cn/u/1160133813" target="_blank">
            杨健
           </a>
           同学也是其中之一），节目播出前成功率为
           <em>
            0
           </em>
           ％。很不幸，播出后还是
           <em>
            0
           </em>
           ％。但从另一方面也证明了两件事：一，对历史数据的分析还是有一定预测价值的；二，
           <em>
           </em>
           概率为 0 的事件还是很难发生的。（当职业病发作时，我还会加一条： 这数据不象抽样，更象普查。）
          </p>
          <p>
           看来数据挖掘潜力还是很大吗！好。那么我们来回头展开想一下。根据
           <em>
            150
           </em>
           多期的节目录像，数据挖掘可以做什么？或许可以搭建一些黑盒子（也就是算法）。我们可以把女同学们（从男同学上场到第一次有机会灭灯之间）的表情扔进一个盒子，盒子很短时间内给出这次几盏灯会灭的预测，当然更好的盒子或许还可以预测到底哪几盏灯会灭。或者我们可以把孟非，黄菡，乐嘉的评论扔进另一个盒子，现场预测最后成功率，等等等等。。。
          </p>
          <p>
           我们首先会问了：
           <em>
            “
           </em>
           就算我们能搭建这些盒子，它们有用吗？
           <em>
            ”
           </em>
           这当然看人怎么用它们了。有些可能有科学价值（明白第一个盒子内的结构对心理学还是有用），有些可能有商业价值（第二个例子，我们摆个盒子在现场做为第四位老师来作预测，收视率肯定会提高），当然还有很多盒子可能没有任何作用，只是好玩。
          </p>
          <p>
           在确定了那些盒子可能有用后，下个问题才是关键：
           <em>
            “
           </em>
           我们能搭建这些盒子吗（
           <em>
           </em>
           当然要求这样的盒子有一定的精确度）？
           <em>
            ”
           </em>
           这也是对数据挖掘研究的挑战，搭建简单的盒子或许不难，但要做一个好的盒子需要很多方面的专业人才的合作：图形处理，语音识别，心理学，经济学，统计学，人工智能，算法，优化，。。。
           <em>
           </em>
          </p>
          <p>
           有兴趣搭这些盒子吗？非诚勿扰！
          </p>
          <hr/>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 13:48
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/black-box/" rel="tag">
           black box
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/prediction/" rel="tag">
           prediction
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
      </div>
      <!-- content -->
     </div>
     <!-- main col -->
     <div class="sidebar-shell sidebar-shell-right" id="sidebar-shell-1">
      <div class="dbx-group right boxed warea" id="sidebar">
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_recent_entries" id="recent-posts-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          近期文章
         </h3>
         <ul>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/05/25/%ef%bc%bb%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%bd%e4%bb%8e%e5%ad%a6%e4%b9%a0%e6%95%b0%e5%ad%a6%e5%85%ac%e5%bc%8f%e5%88%b0%e5%ae%9e%e8%b7%b5%e7%bb%9f%e8%ae%a1%e5%88%86%e6%9e%90/">
            [朝花夕拾] 从学习数学公式到实践统计分析
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/05/12/%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%9a%e8%bf%8e%e6%8e%a5%e4%bf%a1%e6%81%af%e6%97%b6%e4%bb%a3%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%8c%91%e6%88%98/">
            [朝花夕拾] 迎接信息时代的统计挑战
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/04/13/%e5%a4%b1%e8%81%94%e6%90%9c%e6%95%91%e4%b8%ad%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/">
            失联搜救中的统计数据分析
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/02/13/%e6%96%b0%e5%b9%b4%e5%88%b0%ef%bc%8c%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%88%e4%b9%8b%e4%b8%80%ef%bc%89%e5%a4%a7%e5%ae%b6%e5%a6%82%e4%bd%95%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%9f/">
            新年到，发红包（之一）大家如何发红包？
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/10/03/%e7%bd%91%e4%b8%8a%e9%97%ae%e5%8d%b7%ef%bc%8c%e7%bc%ba%e5%a4%b1%e6%95%b0%e6%8d%ae%e5%92%8c%e6%95%b0%e6%8d%ae%e9%9a%90%e7%a7%81/">
            网上问卷，缺失数据和数据隐私
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/08/28/%e8%88%aa%e6%b5%b7%e5%ae%b61%e5%8f%b7%e7%a6%bb%e5%bc%80%e5%a4%aa%e9%98%b3%e7%b3%bb%e4%ba%86%e5%90%97%ef%bc%9f/">
            航海家1号离开太阳系了吗？
           </a>
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_archive" id="archives-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          文章归档
         </h3>
         <ul>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/05/">
            2014年五月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/04/">
            2014年四月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/02/">
            2014年二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/10/">
            2013年十月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/08/">
            2013年八月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/07/">
            2013年七月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/06/">
            2013年六月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/05/">
            2013年五月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/04/">
            2013年四月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/02/">
            2013年二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/01/">
            2013年一月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/12/">
            2012年十二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/11/">
            2012年十一月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/10/">
            2012年十月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/08/">
            2012年八月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/07/">
            2012年七月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/06/">
            2012年六月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/05/">
            2012年五月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/04/">
            2012年四月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/02/">
            2012年二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2011/12/">
            2011年十二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2011/11/">
            2011年十一月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2011/10/">
            2011年十月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2011/09/">
            2011年九月
           </a>
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_categories" id="categories-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          分类目录
         </h3>
         <ul>
          <li class="cat-item cat-item-91">
           <a href="http://blog.cos.name/taoshi/category/%e4%bd%93%e8%82%b2/">
            体育
           </a>
           (2)
          </li>
          <li class="cat-item cat-item-63">
           <a href="http://blog.cos.name/taoshi/category/%e5%aa%92%e4%bd%93%e6%8a%a5%e9%81%93/">
            媒体报道
           </a>
           (12)
          </li>
          <li class="cat-item cat-item-152">
           <a href="http://blog.cos.name/taoshi/category/%e6%95%99%e8%82%b2/">
            教育
           </a>
           (6)
          </li>
          <li class="cat-item cat-item-61">
           <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/">
            数据分析
           </a>
           (22)
          </li>
          <li class="cat-item cat-item-23 current-cat">
           <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/">
            数据挖掘
           </a>
           (7)
          </li>
          <li class="cat-item cat-item-62">
           <a href="http://blog.cos.name/taoshi/category/%e7%a7%91%e5%ad%a6/">
            科学
           </a>
           (7)
          </li>
          <li class="cat-item cat-item-84">
           <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/">
            统计
           </a>
           (22)
          </li>
          <li class="cat-item cat-item-83">
           <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%92%a8%e8%af%a2/">
            统计咨询
           </a>
           (3)
          </li>
          <li class="cat-item cat-item-66">
           <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/">
            统计应用
           </a>
           (15)
          </li>
          <li class="cat-item cat-item-76">
           <a href="http://blog.cos.name/taoshi/category/%e8%81%8c%e4%b8%9a%e4%bb%8b%e7%bb%8d/">
            职业介绍
           </a>
           (5)
          </li>
          <li class="cat-item cat-item-124">
           <a href="http://blog.cos.name/taoshi/category/%e8%af%bb%e4%b9%a6/">
            读书
           </a>
           (2)
          </li>
          <li class="cat-item cat-item-77">
           <a href="http://blog.cos.name/taoshi/category/%e8%bd%ac%e8%bd%bd/">
            转载
           </a>
           (1)
          </li>
          <li class="cat-item cat-item-3">
           <a href="http://blog.cos.name/taoshi/category/%e9%97%b2%e6%89%af/">
            闲扯
           </a>
           (14)
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_links" id="linkcat-125">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          链接链接
         </h3>
         <ul class="xoxo blogroll">
          <li>
           <a href="http://www.statsblogs.com">
            Statsblogs
           </a>
          </li>
          <li>
           <a href="http://www.matrix67.com/blog/">
            Matrix67
           </a>
          </li>
          <li>
           <a href="http://cos.name">
            统计之都
           </a>
          </li>
          <li>
           <a href="http://www.itongji.cn">
            中国统计网
           </a>
          </li>
          <li>
           <a href="http://www.loyhome.com">
            落园
           </a>
          </li>
          <li>
           <a href="http://yihui.name/cn/">
            歇一会
           </a>
          </li>
          <li>
           <a href="http://yixuan.cos.name/cn/">
            怡然軒
           </a>
          </li>
          <li>
           <a href="http://www.puddingnnn.com">
            他山布丁
           </a>
          </li>
          <li>
           <a href="http://www.bjt.name">
            刘思喆@贝吉塔行星
           </a>
          </li>
          <li>
           <a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=2024">
            熵.复杂程度.统计.气象.水
           </a>
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_tag_cloud" id="tag_cloud-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          Tags
         </h3>
         <div class="tagcloud">
          <a class="tag-link-60 tag-link-position-1" href="http://blog.cos.name/taoshi/tag/5%cf%83/" style="font-size: 8pt;" title="1个话题">
           5σ
          </a>
          <a class="tag-link-8 tag-link-position-2" href="http://blog.cos.name/taoshi/tag/air-pollution/" style="font-size: 8pt;" title="1个话题">
           air pollution
          </a>
          <a class="tag-link-24 tag-link-position-3" href="http://blog.cos.name/taoshi/tag/berkeley/" style="font-size: 22pt;" title="5个话题">
           Berkeley
          </a>
          <a class="tag-link-4 tag-link-position-4" href="http://blog.cos.name/taoshi/tag/black-box/" style="font-size: 8pt;" title="1个话题">
           black box
          </a>
          <a class="tag-link-138 tag-link-position-5" href="http://blog.cos.name/taoshi/tag/critical-thinking/" style="font-size: 13.25pt;" title="2个话题">
           critical thinking
          </a>
          <a class="tag-link-139 tag-link-position-6" href="http://blog.cos.name/taoshi/tag/david-a-freedman/" style="font-size: 16.75pt;" title="3个话题">
           David A. Freedman
          </a>
          <a class="tag-link-44 tag-link-position-7" href="http://blog.cos.name/taoshi/tag/discovery/" style="font-size: 8pt;" title="1个话题">
           discovery
          </a>
          <a class="tag-link-9 tag-link-position-8" href="http://blog.cos.name/taoshi/tag/fine-particulate-matter/" style="font-size: 8pt;" title="1个话题">
           fine particulate matter
          </a>
          <a class="tag-link-53 tag-link-position-9" href="http://blog.cos.name/taoshi/tag/leo-breiman/" style="font-size: 8pt;" title="1个话题">
           Leo Breiman
          </a>
          <a class="tag-link-10 tag-link-position-10" href="http://blog.cos.name/taoshi/tag/meta-analysis/" style="font-size: 8pt;" title="1个话题">
           meta-analysis
          </a>
          <a class="tag-link-18 tag-link-position-11" href="http://blog.cos.name/taoshi/tag/national-public-radio/" style="font-size: 8pt;" title="1个话题">
           national public radio
          </a>
          <a class="tag-link-19 tag-link-position-12" href="http://blog.cos.name/taoshi/tag/npr/" style="font-size: 8pt;" title="1个话题">
           NPR
          </a>
          <a class="tag-link-54 tag-link-position-13" href="http://blog.cos.name/taoshi/tag/peter-bickel/" style="font-size: 8pt;" title="1个话题">
           Peter Bickel
          </a>
          <a class="tag-link-11 tag-link-position-14" href="http://blog.cos.name/taoshi/tag/pm2-5/" style="font-size: 8pt;" title="1个话题">
           pm2.5
          </a>
          <a class="tag-link-6 tag-link-position-15" href="http://blog.cos.name/taoshi/tag/prediction/" style="font-size: 8pt;" title="1个话题">
           prediction
          </a>
          <a class="tag-link-30 tag-link-position-16" href="http://blog.cos.name/taoshi/tag/probability/" style="font-size: 8pt;" title="1个话题">
           probability
          </a>
          <a class="tag-link-12 tag-link-position-17" href="http://blog.cos.name/taoshi/tag/ralph-kahn/" style="font-size: 8pt;" title="1个话题">
           Ralph Kahn
          </a>
          <a class="tag-link-13 tag-link-position-18" href="http://blog.cos.name/taoshi/tag/satellite/" style="font-size: 8pt;" title="1个话题">
           satellite
          </a>
          <a class="tag-link-45 tag-link-position-19" href="http://blog.cos.name/taoshi/tag/social-study/" style="font-size: 8pt;" title="1个话题">
           social study
          </a>
          <a class="tag-link-179 tag-link-position-20" href="http://blog.cos.name/taoshi/tag/statistics/" style="font-size: 16.75pt;" title="3个话题">
           Statistics
          </a>
          <a class="tag-link-20 tag-link-position-21" href="http://blog.cos.name/taoshi/tag/super-bowl-ads/" style="font-size: 8pt;" title="1个话题">
           Super Bowl Ads
          </a>
          <a class="tag-link-26 tag-link-position-22" href="http://blog.cos.name/taoshi/tag/terry-speed/" style="font-size: 8pt;" title="1个话题">
           Terry Speed
          </a>
          <a class="tag-link-46 tag-link-position-23" href="http://blog.cos.name/taoshi/tag/twitter-2/" style="font-size: 8pt;" title="1个话题">
           Twitter
          </a>
          <a class="tag-link-14 tag-link-position-24" href="http://blog.cos.name/taoshi/tag/yang-liu/" style="font-size: 8pt;" title="1个话题">
           Yang Liu
          </a>
          <a class="tag-link-31 tag-link-position-25" href="http://blog.cos.name/taoshi/tag/%e4%ba%ba%e5%8f%a3%e6%99%ae%e6%9f%a5/" style="font-size: 8pt;" title="1个话题">
           人口普查
          </a>
          <a class="tag-link-93 tag-link-position-26" href="http://blog.cos.name/taoshi/tag/%e5%8f%b6%e8%af%97%e6%96%87/" style="font-size: 13.25pt;" title="2个话题">
           叶诗文
          </a>
          <a class="tag-link-114 tag-link-position-27" href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae/" style="font-size: 19.666666666667pt;" title="4个话题">
           大数据
          </a>
          <a class="tag-link-74 tag-link-position-28" href="http://blog.cos.name/taoshi/tag/%e5%a5%a5%e6%9e%97%e5%8c%b9%e5%85%8b/" style="font-size: 16.75pt;" title="3个话题">
           奥林匹克
          </a>
          <a class="tag-link-58 tag-link-position-29" href="http://blog.cos.name/taoshi/tag/%e5%b8%8c%e6%a0%bc%e6%96%af%e7%8e%bb%e8%89%b2%e5%ad%90/" style="font-size: 8pt;" title="1个话题">
           希格斯玻色子
          </a>
          <a class="tag-link-21 tag-link-position-30" href="http://blog.cos.name/taoshi/tag/%e5%b9%bf%e5%91%8a/" style="font-size: 8pt;" title="1个话题">
           广告
          </a>
          <a class="tag-link-22 tag-link-position-31" href="http://blog.cos.name/taoshi/tag/%e6%83%85%e7%bb%aa%e9%a2%84%e6%b5%8b/" style="font-size: 8pt;" title="1个话题">
           情绪预测
          </a>
          <a class="tag-link-180 tag-link-position-32" href="http://blog.cos.name/taoshi/tag/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" style="font-size: 13.25pt;" title="2个话题">
           数据挖掘
          </a>
          <a class="tag-link-47 tag-link-position-33" href="http://blog.cos.name/taoshi/tag/%e6%96%b0%e6%b5%aa%e6%96%b0%e9%97%bb/" style="font-size: 8pt;" title="1个话题">
           新浪新闻
          </a>
          <a class="tag-link-59 tag-link-position-34" href="http://blog.cos.name/taoshi/tag/%e6%ac%a7%e6%b4%b2%e5%a4%a7%e5%9e%8b%e5%bc%ba%e5%ad%90%e5%af%b9%e6%92%9e%e6%9c%ba/" style="font-size: 8pt;" title="1个话题">
           欧洲大型强子对撞机
          </a>
          <a class="tag-link-15 tag-link-position-35" href="http://blog.cos.name/taoshi/tag/%e6%b0%91%e7%a7%91/" style="font-size: 8pt;" title="1个话题">
           民科
          </a>
          <a class="tag-link-27 tag-link-position-36" href="http://blog.cos.name/taoshi/tag/%e7%94%b7%e5%a5%b3%e6%af%94%e4%be%8b/" style="font-size: 8pt;" title="1个话题">
           男女比例
          </a>
          <a class="tag-link-48 tag-link-position-37" href="http://blog.cos.name/taoshi/tag/%e7%95%99%e5%ad%a6%e7%94%b3%e8%af%b7/" style="font-size: 8pt;" title="1个话题">
           留学申请
          </a>
          <a class="tag-link-50 tag-link-position-38" href="http://blog.cos.name/taoshi/tag/%e7%b2%be%e7%ae%97%e5%b8%88/" style="font-size: 8pt;" title="1个话题">
           精算师
          </a>
          <a class="tag-link-183 tag-link-position-39" href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1/" style="font-size: 19.666666666667pt;" title="4个话题">
           统计
          </a>
          <a class="tag-link-51 tag-link-position-40" href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e5%ad%a6%e5%ae%b6/" style="font-size: 8pt;" title="1个话题">
           统计学家
          </a>
          <a class="tag-link-64 tag-link-position-41" href="http://blog.cos.name/taoshi/tag/%e7%bd%ae%e4%bf%a1%e5%8c%ba%e9%97%b4/" style="font-size: 13.25pt;" title="2个话题">
           置信区间
          </a>
          <a class="tag-link-17 tag-link-position-42" href="http://blog.cos.name/taoshi/tag/%e8%b6%85%e7%ba%a7%e7%a2%97/" style="font-size: 8pt;" title="1个话题">
           超级碗
          </a>
          <a class="tag-link-41 tag-link-position-43" href="http://blog.cos.name/taoshi/tag/%e9%92%9f%e5%b1%b1%e8%af%b4%e4%ba%8b/" style="font-size: 8pt;" title="1个话题">
           钟山说事
          </a>
          <a class="tag-link-16 tag-link-position-44" href="http://blog.cos.name/taoshi/tag/%e9%9d%9e%e8%af%9a%e5%8b%bf%e6%89%b0/" style="font-size: 8pt;" title="1个话题">
           非诚勿扰
          </a>
          <a class="tag-link-42 tag-link-position-45" href="http://blog.cos.name/taoshi/tag/%e9%ab%98%e8%80%83/" style="font-size: 8pt;" title="1个话题">
           高考
          </a>
         </div>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget-suf-subscription" id="suf-subscription-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          Follow Me
         </h3>
         <form action="http://feedburner.google.com/fb/a/mailverify" class="aligncenter" method="post" onsubmit="window.open('http://feedburner.google.com/fb/a/mailverify?uri=your-feed-name', 'popupwindow', 'scrollbars=yes,width=550,height=520');return true" target="popupwindow">
          <p>
          </p>
         </form>
         <div class="fix">
         </div>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_meta" id="meta-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          功能
         </h3>
         <ul>
          <li>
           <a href="http://blog.cos.name/taoshi/wp-login.php">
            登录
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/feed/">
            文章
            <abbr title="Really Simple Syndication">
             RSS
            </abbr>
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/comments/feed/">
            评论
            <abbr title="Really Simple Syndication">
             RSS
            </abbr>
           </a>
          </li>
          <li>
           <a href="https://cn.wordpress.org/" title="基于WordPress，一个优美、先进的个人信息发布平台。">
            WordPress.org
           </a>
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
      </div>
      <!--/sidebar -->
     </div>
    </div>
    <!-- /container -->
    <footer>
     <div id="cred">
      <table>
       <tbody>
        <tr>
         <td class="cred-left">
          © 2013
          <a href="http://blog.cos.name/taoshi">
           从数据中看规律
          </a>
         </td>
         <td class="cred-center">
         </td>
         <td class="cred-right">
          <a href="http://aquoid.com/news/themes/suffusion/">
           Suffusion theme by Sayontan Sinha
          </a>
         </td>
        </tr>
       </tbody>
      </table>
     </div>
    </footer>
    <!-- 67 queries, 49MB in 2.043 seconds. -->
   </div>
   <!--/wrapper -->
   <!-- location footer -->
  </div>
 </body>
</html>